Alignement texte-image sans apprentissage pour les manuscrits médiévaux
نویسندگان
چکیده
RÉSUMÉ. Dans cet article, nous décrivons une nouvelle approche pour l’alignement texte-image des documents du moyen-âge. La méthode est dédiée à l’alignement au niveau mot, sans segmentation ni apprentissage. L’alignement mot à mot est basé sur une distance d’édition appliquée à des signatures extraites à la fois à partir des chaı̂nes de caractères Unicode et à partir des images. Les résultats sont évalués sur la “Queste del saint Graal” (XIIIème s.) par des paléographes grâce à une interface de validation intuitive qui permet une correction interactive très rapide. Le gain de temps résultant de l’absence d’une phase d’apprentissage permet d’apporter plus d’attention à l’intégration des différentes spécificités et des variations des écritures du moyen-âge (abréviations, allographes. . .).
منابع مشابه
Extraction de formules chimiques dans des documents manuscrits composites
RÉSUMÉ. Nous abordons dans ces travaux, le problème de la segmentation de documents de cahiers de la chimie en zones homogènes. Les documents à traiter sont manuscrits sans contraintes composés de zones de textes, de tableaux et de graphiques, représentant l’expression graphique de l’expérience réalisée. L’objectif de ce premier travail est d’extraire, dans chaque document, le bloc contenant le...
متن کاملExploitation de l'échelle d'écriture pour améliorer la reconnaissance automatique des textes manuscrits arabe
RÉSUMÉ. Les documents manuscrits arabes présentent des défis spécifiques pour la reconnaissance du fait de la nature de l'écriture cursive et d'autres facteurs, comme la taille de l'écriture. Une des plus grandes bases étiquetées des documents manuscrits arabes, la base de données NISTOpenHaRT inclut de grandes variabilités dans la taille du texte inter et intra mots et lignes. Nous proposons ...
متن کاملUn modèle neuro markovien profond pour l'extraction de séquences dans des documents manuscrits
RÉSUMÉ. Dans cet article, nous proposons un système d’extraction de mots clés dans des documents manuscrits. Notre approche est basée sur la reconnaissance des lignes de texte à l’aide d’un modèle HMM capable de rejeter les mots n’appartenant pas à un lexique prédéfini. Afin d’être plus discriminant, nous avons remplacé les mélanges de gaussiennes des HMM par un réseau de neurones profond pour ...
متن کاملIncrémentation lexicale dans les textes : une auto-organisation (Lexical Incrementation within Texts: a Self-Organization) [in French]
RESUME Nous proposons une étude dynamique du lexique, en décrivant la manière dont il s’organise progressivement du début à la fin d’un texte. Pour ce faire, nous nous focalisons sur la co-occurrence généralisée, en formant un graphe qui représente tous les lemmes du texte et synthétise leurs relations mutuelles de co-occurrence. L’étude d’un corpus de 40 textes montre que ces relations évoluen...
متن کاملApprentissage supervisé pour la catégorisation de documents manuscrits en-ligne
RÉSUMÉ. Cet article s’intéresse à la problématique de la catégorisation automatique de documents manuscrits en-ligne et plus particulièrement à l’impact de la reconnaissance de l’écriture dans un processus de catégorisation utilisant des méthodes d’apprentissage automatique. Nous comparons les performances obtenues avec des documents issus d’un système de reconnaissance de l’écriture en-ligne e...
متن کامل